Fullstack Job: Site Reliability Engineer - ingénieur(e) – fiabili

Job added on

Company

Tecsys

Location

Markham - Canada

Job type

Full-Time

Fullstack Job Details

Having recognized the advantages of remote work, including employee morale, productivity, reduced commuting on employee wellbeing and the environment, as of May 1, 2022, we became a remote-first company. The technologies and programs in which we invested have provided a fantastic foundation to this end. Our remote-first office, together with our conveniently located offices and collaborative workspaces, provide our team with the freedom and flexibility to work in the way that makes our employees most productive.

Our focus is to ensure our employees can do their work in the environment that supports their performance and professional targets.

Do you have knowledge as a Monitoring Specialist, or as a Reliability, System, Platform, or Infrastructure Engineer? Have you worked in DevOps or Automation? Does your work background include roles such as System, or Cyber Risk & Resilience, Analyst? If so, this might be the challenge that you have been looking for as the next step in your career!


We are looking for a Site Reliability Engineer to work within our “Network and Security Operations Center” department. Our NOC team is aimed at improving reliability and uptime of our platform and applications in a data-driven way to support internal and external customers' needs.


Job Description / Key Responsibilities

  • Collaborate with other Engineering teams to support services before they go live through activities such as system design consulting, developing software platforms and frameworks, capacity planning and launch reviews.
  • Maintain services once they are live by measuring and monitoring availability, latency and overall system health.
  • Develop tools & automation on top of Azure & AWS to continuously reduce the need for manual intervention.
  • Scale systems sustainably through automation and evolve systems by pushing for changes that improve reliability and velocity.
  • Be on-call
  • Practice sustainable incident response and blameless postmortems.
  • Implement automated solutions for continuous integration and delivery (CI / CD).
  • Implement monitoring, Logging, alerting and SLA Reporting.
  • Implement service monitoring dashboards displaying key metrics.
  • Create and maintain technical documentation.
  • Apply SRE best practices.
  • Take command of high-severity incidents and facilitate their resolution.
  • Provide support for our planning and deployment teams to enable stability, predictability, and scale in our continued growth
  • Collaborate with members of the Platform Engineering team to implement and support far-reaching strategic efforts, provide constructive feedback, and foster a collaborative environment
  • Work cross-functionally with internal teams and vendors to manage our growth around the globe, with a strong focus on maintaining the high level of performance, availability, and reliability for our users

Qualifications / Requirements:

  • Bachelor's degree in computer science or related technical discipline.
  • At least 5 years experience in systems engineering experience; demonstrable technical experience in new platform development, orchestration, product ownership, and iterative design and deployment
  • Experience designing and deploying large scale systems, multi-vendor platforms and globally distributed infrastructure
  • Strong knowledge of system design; high performance computing; file, block, and storage technologies; integration of compute, storage, and network technologies to deliver cohesive infrastructure solutions
  • High level of understanding and examples of executing projects with full stack automation; our scale is going to require a lot of it, we grow to use less manual intervention and work with both internal and open-source tools to automate day-to-day activities
  • Self-organize, collaborate and manage efforts with peers and teams across responsibility areas, languages, geography and time zones.
  • Be a self-starter, curious and not afraid to ask questions and challenge the way things are done today
  • See a problem or opportunity, take ownership and act on it independently
  • Knowledge of Datadog preferred (or at least, similar/equivalent product)
  • Knowledge of Rapid7 Insight preferred (or at least, similar/equivalent product)
  • Knowledge and experiences of AWS or Azure required
  • Basic knowledge of Java- or .Net-based development required
  • Knowledge of GitLab (enterprise license) preferred (or at minimum, Jenkins required)
  • Experience with SaaS company is strong asset
  • Bilingualism is an asset

Additional Requirements

  • Escalation on-call rotation
  • Occasional travel (quarterly offsites, conferences – less than 10%)

Tecsys is an equal opportunity employer. Accommodation is available for applicants selected for an interview.


*********************************************************************************************************************************************************************************************


Ayant reconnu les avantages du travail à distance sur le bien-être des employés et l'environnement, notamment le moral des employés, la productivité, la réduction des trajets domicile-travail, nous sommes devenus, depuis le 1er mai 2022, une entreprise privilégiant le travail à distance. Les technologies et les programmes dans lesquels nous avons investi ont fourni une base fantastique à cette fin. Notre bureau qui privilégie le travail à distance, ainsi que nos bureaux bien situés et nos espaces de travail collaboratifs, offrent à notre équipe la liberté et la flexibilité de travailler de la manière qui rend nos employés les plus productifs.


Notre objectif est de veiller à ce que nos employés puissent effectuer leur travail dans l'environnement qui soutient leurs performances et leurs objectifs professionnels.


Vous avez des connaissances en tant que spécialiste de la surveillance, ou en tant qu'ingénieur en fiabilité, système, plate-forme ou infrastructure ? Avez-vous travaillé dans le domaine du DevOps ou de l'automatisation ? Votre expérience professionnelle inclut-elle des rôles tels que ceux d'analyste système ou d'analyste en cyber-risque et résilience ? Si oui, c'est peut-être le défi que vous recherchez pour la prochaine étape de votre carrière !


Nous recherchons un ingénieur(e) – fiabilité des infrastructures infonuagiques pour travailler au sein de notre département "Network and Security Operations Center". Notre équipe NOC a pour objectif d'améliorer la fiabilité et le temps de fonctionnement de notre plateforme et de nos applications en s'appuyant sur des données afin de répondre aux besoins des clients internes et externes.


Description du poste/responsabilités clés :

  • Collaborer avec d'autres équipes d'ingénieurs pour soutenir les services avant la mise en service par des activités telles que le conseil en conception de systèmes, le développement de plateformes et de cadres logiciels, la planification des capacités et les examens de lancement.
  • Maintenir les services une fois qu'ils sont en place en mesurant et en surveillant la disponibilité, la latence et la santé générale du système.
  • Développer des outils d'automatisation sur Azure et AWS pour réduire continuellement le besoin d'interventions manuelles.
  • Faire évoluer les systèmes de manière durable grâce à l'automatisation, et faire évoluer les systèmes en préconisant des changements qui améliorent la fiabilité et la rapidité.
  • Être sur appel.
  • Implantez des solutions automatisées pour l'intégration et la livraison continues (CI / CD).
  • Implantez un système de surveillance des systèmes, la journalisation, les alertes et rapports d'ententes de service.
  • Implantez des tableaux de bord d'indicateurs de performance pour le suivi des services.
  • Créer et mettre à jour la documentation technique
  • Apporter une réponse durable aux incidents et faire des post mortems de haute qualité.
  • Prendre en charge des incidents de haute gravité et faciliter leur résolution.
  • Fournir un soutien à nos équipes de planification et de déploiement afin de permettre la stabilité, la prévisibilité et l'ampleur de notre croissance continue.
  • Collaborer avec les membres de l'équipe d'ingénierie de la plate-forme pour mettre en œuvre et soutenir des efforts stratégiques de grande envergure, fournir un retour d'information constructif et favoriser un environnement de collaboration.
  • Travailler de manière transversale avec les équipes internes et les fournisseurs pour gérer notre croissance dans le monde entier, en mettant l'accent sur le maintien d'un niveau élevé de performance, de disponibilité et de fiabilité pour nos utilisateurs.

Qualifications, exigences:

  • Baccalauréat en informatique ou dans une discipline technique connexe.
  • Au moins 5 ans d'expérience en ingénierie des systèmes, expérience technique avérée dans le développement de nouvelles plateformes, l'orchestration, la propriété des produits et la conception et le déploiement itératifs.
  • Expérience dans la conception et le déploiement de systèmes à grande échelle, de plateformes multifournisseurs et d'infrastructures distribuées au niveau mondial.
  • Connaissance approfondie de la conception de systèmes, du calcul haute performance, des technologies de fichiers, de blocs et de stockage, de l'intégration des technologies de calcul, de stockage et de réseau pour fournir des solutions d'infrastructure cohérentes.
  • Haut niveau de compréhension et exemples d'exécution de projets avec une automatisation complète de la pile, notre échelle va en demander beaucoup, nous nous développons pour utiliser moins d'interventions manuelles et travailler avec des outils internes et source libre pour automatiser les activités quotidiennes.
  • Faire preuve d'initiative, de curiosité et ne pas avoir peur de poser des questions et de remettre en question la façon dont les choses sont faites aujourd'hui.
  • Voir un problème ou une opportunité, le ou la prendre en charge et agir en toute indépendance.
  • Connaissances de Datadog préférée (ou au moins, d’un produit similaire/équivalent).
  • Connaissances de Rapid7 Insight préférée (ou au moins, d’un produit similaire/équivalent)
  • Connaissances et expérience de AWS ou de Azure r
  • Connaissances de base en développement Java ou .Net requises.
  • Connaissances de GitLab (licence d'entreprise) de préférence (ou au minimum, Jenkins requis).
  • Avec de l'expérience dans un environnement SaaS constitue un atout majeur.

Autres exigences

  • Gestion d’escalation aux personnes qui sont sur appel selon un horaire rotatif.
  • Voyages occasionnels (visites trimestrielles sur les lieux, conférences - moins de 10 %)

#LI-Remote